text4seg

Text4Seg++: 让语言模型生成“文本掩码”,重新定义图像分割

多模态大语言模型(MLLM)在理解和生成语言方面的能力令人惊叹,但在处理需要精确空间定位的视觉任务(如图像分割)时,往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制,增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的

模型 图像分割 掩码 text4seg 文本掩码 2025-09-12 19:33  3